sql - GROUP BY 和 ORDER BY

hadoop - 如何在 spark sql 的配置单元上下文对象中查找登录/连接/当前用户？

如何在sparksql的配置单元上下文对象中找到登录/连接/当前用户？可以使用任何sql查询或Unix命令。?我试过了!我是谁;hive命令提示符中的命令。是不是最优解我需要在sql查询中获取登录的用户，并想使用sparksql将其插入到表中最佳答案在PySpark中，使用这个sqlContext._sc.sparkUser()或sqlContext.sql('selectcurrent_user()').show() 关于hadoop-如何在sparksql的配置单元上下文对象中查

配置单下文 blockquote section hadoop apache-spark hive apache-spark-sql spark-dataframe

hadoop - 如何使用 Spark SQL 创建分区表

我知道我们可以通过以下方式创建一个自动分区发现表CREATETABLEmy_tableUSINGcom.databricks.spark.avroOPTIONS(path"/path/to/table");但这需要将数据路径更改为partition_key=partition_value格式/path/to/table/dt=2016-10-09/path/to/table/dt=2016-10-10/path/to/table/dt=2016-10-11但是数据结构是这样的:/path/to/table/2016-10-09/path/to/table/2016-10-10/path

hadoop Spark table section code apache-spark hive apache-spark-sql

如何通过在SQL查询中分离的分离的半隆分组所有值

请帮助如何按照所附图像中显示的数据实现数据突出显示的行实际上在项目编号字段上进行分组提前致谢看答案以下应该有效：SELECTdistinctItemNumber,SUBSTRING((SELECT';'+TotalItem+'x'+ItemNameFROMYourTablewhereItemNumber=c.ItemNumberORDERBYItemNumberFORXMLPATH('')),2,200000)ASNewDescriptionfromYourTablecGO

中分分组 section ItemNumber 数据

hadoop - 使用配置单元初始化数据库时出现 java.sql.SQLException : Failed to start database 'metastore_db' ERROR,

我在3个集群上安装了Hadoop和Hive。我能够从运行HIVE的集群节点登录到配置单元。root@NODE_3hive]#hiveLogginginitializedusingconfigurationinjar:file:/usr/lib/hive/lib/hive-common-0.10.0-cdh4.2.0.jar!/hive-log4j.propertiesHivehistoryfile=/tmp/root/hive_job_log_root_201304020248_306369127.txthive>showtables;OKTimetaken:1.459secondsh

时出配置单 metastore hive metastore_db hadoop permissions mapreduce hdfs

sql - 寻找更小规模的类似 Hadoop 的解决方案

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的，因为它们往往会吸引自以为是的答案和垃圾邮件。相反，describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion我们有一个大约1000GB(千兆字节)的数据库，我们正在考虑使用Hadoop来进行时间序列分析。问题是Hadoop需要一些时间才能进入，而且对于我们数据库的大小，Hadoop实际上是一个超大的解决方案。我的问题是是否有人知道类似Hado

小规小规模 section class notice sql database hadoop infinispan

sql - 在两个大数据流中查找客户条目的有效方法

如果我有一个数据流每天给我1000万条记录(流A)，另一个数据流每天给我10亿条记录(流B)，查看数据是否重叠的有效方法是什么？更具体地说，如果流A中有一位客户访问了一个网页，而同一位客户访问了流B中的另一个网页，我如何判断该客户访问了这两个网页？我最初的想法是将记录放入关系数据库并进行连接，但我知道这样效率很低。执行此操作的更有效方法是什么？我如何使用Hadoop或Spark等工具来做到这一点？最佳答案联接应该是处理此问题的有效方法。您应该对两个数据集进行排序，或者对CustomerID进行索引(并且索引将按CustomerI

大数条目 section CustomerID stackoverflow sql hadoop apache-spark

sql - 改变 hive 中的现有 map

我有一个配置单元表，其中一列为map数据类型。map>现在我想在结构值中添加一列，如下所示:map>任何人都知道如何实现这一目标。提前致谢。最佳答案 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-ChangeColumnName/Type/Position/Commentaltertabletchangecolumnmycolmycolmap>;请注意，默认情况下只有新分区会受到更改的影响。如果您希望它应用

hive sql section decimal code hadoop

sql - 排序行时优化 Hive GROUP BY

我有以下(非常简单的)Hive查询:selectuser_id,event_id,min(time)asstart,max(time)asend,count(*)astotal,count(interaction==1)asclicksfromevents_allgroupbyuser_id,event_id;表格结构如下:user_idevent_idtimeinteractionEx833Lli36nxTvGTA1DvjuCUv6EnkVundBHSBzQevw14304815302950Ex833Lli36nxTvGTA1DvjuCUv6EnkVundBHSBzQevw14304

行时 GROUP code section event_id sql hadoop hive query-optimization hiveql

sql - 错误 :Invalid table alias or column reference while using map in Hive

我正在执行以下配置单元查询:createorreplaceviewtest.hospasselectp.hosp_id,p.hosp_name,max(casewhen`p.my_map[1].id`isNULLthen1else0end)ashos_main_idfromarch.hospitalgroupbyp.hosp_id,p.hosp_name,p.my_map[1].id;Error:Invalidtablealiasorcolumnreference'p.my_map[1].id'.有map名称my_map>，那为什么我仍然收到错误消息:Error:Invalidtabl

reference Invalid section code my_map sql hadoop hive

sql - Teradata 和 HIVE 之间的字符串匹配差异

我正在进入Hive并学习Hive。我在teradata中有客户表，使用sqoop在hive中提取完整表，效果很好。请参阅下面的Teradata和HIVE客户表。在Teradata中:selectTOP4id,name,'"'||status||'"'fromcustomer;3172460Customer#003172460"BUILDING"3017726Customer#003017726"BUILDING"2817987Customer#002817987"COMPLETE"2817984Customer#002817984"BUILDING"在HIVE中:selectid,na

Teradata HIVE BUILDING 34 Customer sql hadoop

281 282 283284285 286 287